深层神经网络如今成功地拟合了非常复杂的功能,但是对于推理而言,密集的模型开始非常昂贵。为了减轻这种情况,一个有希望的方向是激活网络稀疏子图的网络。该子图是由数据依赖性路由函数选择的,将输入的固定映射到子网(例如,专家(MOE)在开关变压器中的混合物)。但是,先前的工作在很大程度上是经验的,尽管现有的路由功能在实践中效果很好,但它们并没有导致近似能力的理论保证。我们旨在为稀疏网络的力量提供理论解释。作为我们的第一个贡献,我们提出了一个与数据相关的稀疏网络的形式模型,该网络捕获了流行体系结构的显着方面。然后,我们基于局部性敏感哈希(LSH)引入一个路由函数,使我们能够对稀疏网络近似目标函数的方式进行推论。在用我们的模型代表基于LSH的稀疏网络之后,我们证明稀疏网络可以匹配Lipschitz函数上密集网络的近似能力。在输入向量上应用LSH意味着专家在输入空间的不同子区域中插值目标函数。为了支持我们的理论,我们根据Lipschitz的目标功能定义了各种数据集,并且我们表明,稀疏网络在活动数量数量和近似质量之间具有良好的权衡。
translated by 谷歌翻译
联邦学习使客户的隐私保留,引起了人们的兴趣。作为联合学习的一种变体,联邦转移学习利用了来自相似任务的知识,因此也经过深入研究。但是,由于无线电频谱的有限,通过无线链接的联合学习的沟通效率至关重要,因为某些任务可能需要数千个上行链路有效载荷。为了提高沟通效率,我们在本文中提出了基于功能的联合转移学习作为一种创新方法,将上行链路有效载荷降低了五个以上的数量级,而不是现有方法。我们首先介绍系统设计,其中提取的功能和输出被上传而不是参数更新,然后用此方法确定所需的有效负载,并与现有方法进行比较。随后,我们分析了保留客户隐私的随机改组计划。最后,我们通过对图像分类任务进行实验评估了提出的学习方案的性能,以显示其有效性。
translated by 谷歌翻译
Natiq是阿拉伯语的端到端文本到语音系统。我们的语音合成器使用Encoder-Decoder架构引起了人们的注意。我们同时使用了基于TACOTRON的模型(Tacotron-1和Tacotron-2)和更快的变压器模型来从字符中生成MEL光谱图。我们将tacotron1与Wavernn Vocoder,Tacotron2与WaveLow Vocoder和ESPNET变压器与平行波甘gan vocoder串联,以从频谱图合成波形。我们使用了两个声音的内部语音数据:1)中立的男性“ hamza” - 叙述一般内容和新闻,以及2)表现力的女性“ Amina” - 叙述孩子的故事书来训练我们的模型。我们的最佳系统的平均平均意见评分(MOS)分别为Amina和Hamza的平均意见分别为4.21和4.40。使用单词和字符错误率(WER和CER)对系统的客观评估以及实时因子测量的响应时间有利于端到端体系结构ESPNET。 NATIQ演示可在线上https://tts.qcri.org提供
translated by 谷歌翻译
我们解决了监视一组二进制随机过程的问题,并在其中的异常数超过阈值时生成警报。为此,决策者选择并探测过程的子集以获得其状态的噪声估计(正常或异常)。根据所接收的观察,决策者首先确定是否声明异常数已超过阈值或继续观察。当决定继续时,它会决定是否在下次即时收集观察,或者将其推迟到以后的时间。如果它选择收集观察,它进一步确定了待探测的过程的子集。为了设计这三步的顺序决策过程,我们使用贝叶斯制剂,其中我们学习了过程的状态的后验概率。使用后验概率,我们构建了马尔可夫决策过程,并利用深刻的演员批评加强学习解决了它。通过数值实验,我们展示了与传统的基于模型的算法相比的算法的卓越性能。
translated by 谷歌翻译
我们解决了从给定集中选择和观察过程的问题,以找到其中的异常。决策者在任何给定的时间瞬间观察过程的子集,并获得相应过程是否异常的嘈杂二进制指示符。在该设置中,我们开发了一种异常检测算法,该检测算法选择在给定的时间瞬间观察的过程,决定何时停止观察,并宣布对异常过程的决定。检测算法的目的是识别具有超过所需值的精度的异常,同时最小化决策制定的延迟。我们设计了一种集中式算法,其中通过公共代理和分散算法共同选择进程,其中对于每个过程独立决定是否选择过程。我们的算法依赖于使用每个过程的边际概率定义的马尔可夫决策过程正常或异常,调节观察结果。我们利用深度演员批评加强学习框架实现了检测算法。与在此主题的事先工作不同,在流程数量中具有指数复杂性,我们的算法具有在过程数量中的多项式的计算和内存要求。我们通过将它们与最先进的方法进行比较来证明这些算法使用数值实验的功效。
translated by 谷歌翻译
由于其对人类生命,运输,粮食生产和能源管理的高度影响,因此在科学上研究了预测天气的问题。目前的运营预测模型基于物理学,并使用超级计算机来模拟大气预测,提前预测数小时和日期。更好的基于物理的预测需要改进模型本身,这可能是一个实质性的科学挑战,以及潜在的分辨率的改进,可以计算令人望而却步。基于神经网络的新出现的天气模型代表天气预报的范式转变:模型学习来自数据的所需变换,而不是依赖于手工编码的物理,并计算效率。然而,对于神经模型,每个额外的辐射时间都会构成大量挑战,因为它需要捕获更大的空间环境并增加预测的不确定性。在这项工作中,我们提出了一个神经网络,能够提前十二小时的大规模降水预测,并且从相同的大气状态开始,该模型能够比最先进的基于物理的模型更高的技能HRRR和HREF目前在美国大陆运营。可解释性分析加强了模型学会模拟先进物理原则的观察。这些结果代表了建立与神经网络有效预测的新范式的实质性步骤。
translated by 谷歌翻译
生成对抗性网络(甘斯)已经成为对解决图像生成的问题,最常用的网络。自我监督甘斯将在后面提出,以避免鉴相器的灾难性的遗忘,提高图像质量产生不需要的类标签。然而,在不同的GAN架构自检任务概不前研究。为此,我们深入地分析以前提出的自我监督任务的贡献,概背景下DeshuffleGANs的混洗。我们分配混洗的任务,以两种不同的GAN鉴别和研究了这两种体系结构的任务的影响。我们比较各种数据集先前提出的DeshuffleGANs延长评估。我们表明,DeshuffleGAN获得最佳FID结果几个数据集相对于其他自主监督甘斯。此外,我们比较的是首先部署到GAN培训和证明其贡献超过了预测旋转的旋转预测混洗。我们设计的名为cDeshuffleGAN评估了解到表示质量的条件DeshuffleGAN。最后,我们表现出的自我监管任务的损失景观和目前认为这些任务的影响可能不会合作,以在某些环境对抗训练GAN培训的贡献。我们的代码可以在https://github.com/gulcinbaykal/DeshuffleGAN找到。
translated by 谷歌翻译